为英语以外的其他语言构建有效的开放式问题答案(开放质量质量质量)系统可能是具有挑战性的,这主要是由于缺乏标记的培训数据。我们提出了一种数据有效的方法来引导此类系统,以使用英语以外的其他语言。我们的方法只需要在给定语言中,以及机器翻译的数据以及至少一个双语语言模型中有限的质量检查资源。为了评估我们的方法,我们为冰岛语言构建了这样的系统,并评估了Trivia风格数据集的性能。用于培训的语料库是英语的,但机器被翻译成冰岛。我们训练双语的冰岛/英语模型,以嵌入英语背景和冰岛问题,并在用密集酶引入的方法之后(Lee等,2021)。最终的系统是冰岛和英语之间的开放式域杂志系统。最后,该系统适用于仅冰岛开放式质量检查,以说明如何有效地创建开放的QA系统,而使用感兴趣的语言对策划数据集的访问有限。
translated by 谷歌翻译
在本文中,我们介绍了第一个链接冰岛语料库的实体。我们描述了使用多语言实体链接模型(MGENRE)与Wikipedia API搜索(WAPIS)结合使用的方法来标记我们的数据并将其与仅使用WAPIS进行比较。我们发现,我们的组合方法在我们的语料库上达到53.9%的覆盖范围,而仅使用WAPIS的覆盖率为30.9%。我们分析我们的结果并解释使用冰岛时使用多语言系统的价值。此外,我们分析了仍然没有标记的数据,识别模式并讨论为什么它们可能很难注释。
translated by 谷歌翻译
政治上通知的公民对威力发展的民主是必不可少的。虽然美国政府追求开放数据的政策,但这些努力在实现开放政府方面不足以实现技术和领域知识的人可以访问数据中的信息。在这项工作中,我们进行用户面试以确定利益相关者之间的需求和需求。我们进一步使用此信息来绘制功能政治信息系统的基础要求。
translated by 谷歌翻译